Phân loại máy truy tìm Máy_truy_tìm_dữ_liệu

Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thuỷ. Có hai cách chính phân loại máy truy tìm.

Theo phương thức hoạt động

  • Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là http://www.google.com
Giao diện của máy metacrawler
  • Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thể lợi dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gởi từ khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là lợi dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay "ảo"). Điển hình loại này là MetaCrawler.
  • Kiểu thư mục đối tượng (subject directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này là http://www.yahoo.com
  • Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng. Đặc biệt, các trang Web nghiên cứu của các đại học hay học viện như http://lii.org, http://www.academicinfo.nethttp://infomine.ucr.edu thuộc kiểu này.
  • Sau này nhiều máy truy tìm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia của các máy truy tìm nữa mà thay vào đó là các hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng khác nhau. Chẳng hạn như http://www.yahoo.com không còn đơn thuần là một máy truy tìm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng cung cấp luôn cả kiểu máy nhện cho người dùng.

Theo chức năng

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:

  • Kiếm địa chỉ trang Web
  • Kiếm địa chỉ thư điện tử
  • Kiếm thông tin riêng về một người
  • Kiếm thông tin về một tổ chức
  • Kiếm việc làm
  • Kiếm bản đồ...